先前說了資料集的處理及分配,但是到底資料要如何提供呢?怎樣的資料才是好的呢?
資料處理是機器學習重要的一環,資料找出特徵,讓資料得以表現出他的價值,也就是可以給我們使用的意義。
據教學說,從業人員大概花了75%的時間在整理這些資料呢!
在所有原始數據(raw data)都是不好看,亂七八糟的,所以我們要重新整理,讓這些資料可以給機器學習使用。畢竟他們不懂什麼是真正要使用的數據,在機器學習中,他們也只有自行取得資料分析,萬一給的格式換七八糟,他們也無法正確的學習,產生模型。
因此我們需要在數據中首先確保資料不是太偏頗,例如我們要算每戶家庭的房間數預測,就不需要把一戶人家有50個房間這種極端數值也算進去,極端數值要排出,不然我們抓資料出來的時候會認為那是正常現象。所以有歸納出幾個優良資料的建議:
接著是要處理數據,像是數據的字串格式,要改成浮點數之類的,就是整理資料的形態與內容。像是在raw data裡面有地址,但是地址的填寫方式都有寫不同,可能有的是全型應數字或是中文等等其他語言,這樣在分析或是計算的時候難以處理。所以要把資料格式統一。但是統一後,也要讓學習的模行容易讀取,也要把它做成轉換成數值,例如「60.6」、「5」都是文字,我們可以把他們轉乘數字代碼來運用,接著他們就可以拿這些數據計算了,也有量化的欄位或是數字,可以讓訓練更加快速。